[t:/]$ 지식_

노는 스파크 코어

2025/11/19

yarn-spark 와 같은 분산 컴퓨팅 연산통은 대부분의 시간을 IO에 할애하고 있다. CPU는 논다. 나누고 합치고 쪼개고 합치고 보내고 받고한다.

이하 내부 매커니즘 모르고 쓴 막말임.

GPU 클러스터라면 GPU가 열일 할 일이지만 스파크로 분산 ML을 하지 않는 한 CPU는 놀고 있을 것이다.

그러므로 가상 머신으로 깔아둔 클러스터의 코어는 오버 커밋으로 실제 보유 물리 코어보다 더 많은 논리 코어로 운용하도록 셋팅할 것이다.

물리1000/논리1000에서 최대 컨테이너 1000개를 다 띄우고 CPU 사용률 10%, IO 30%라면물리1000/논리3000에서 최대 컨테이너 3000개를 다 띄우고 CPU 사용률 30% IO 90%라고 대충 통빱을 때려볼 수 있다.

이 트릭으로 스파크에서 뭔가를 만들었는데 잘 된다.









[t:/] is not "technology - root". dawnsea, rss